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摘要 : [目的 /意义 ] 摘要 作为 学 术 论 文中 能 够 简明 扼要 地 说 明 研 究 目的 、 研 究 方法 和 最 终结 论 的 陈述 部 
分 ,具有 较 高 的 探究 价值 和 意义 。[ 方 法 /过 程 ] 选取 长 短期 记忆 网 络 (Long Short-Term Memory )、 支 持 向 量 机 
(Support Vector Machine) LSTM-CRF 和 CNN-CRF 4 种 模型 ,对 3 672 篇 情报 学 领域 的 期 刊 论 文 进行 摘要 划分 识 
别 研究 。[ 结果 /结论 ] 长 短期 记忆 网 络 模 型 识别 下 值 最 高 为 69.15% ,LSTM-CRF 神经 网 络 模型 最 高 下 值 为 88. 
76% ,RNN-CRF 模型 最 高 下 值 达 到 89.10% ,支持 向 量 机 分 类 器 分 类 宏观 下 值 最 高 为 72.04% 。 该 实验 结果 对 


图 书 情报 领域 的 学 术 论 文 结构 功能 划分 实验 模型 选取 有 较 高 的 参考 价值 。 
二 关键 词 ; 结构 功能 划分 “条 件 随机 场 长 短期 记忆 网 络 ” 卷 积 神经 网 络 ”支持 向 量 机 
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摘要 是 对 学 术 论文 不 加 注释 和 评论 的 简短 陈述 ， 
基本 要 素 包 括 研究 目的 方法、 结果 和 结论 ,是 具有 独 
次 闫 和 完整 性 的 短文 "1] 。 搞 要 作为 学 术 研究 中 的 重要 
组 戌 部 分 ,能 够 为 研究 人 员 提 供 完整 的 学 术 文献 主要 
储 惹 ,在 无 法 获取 学 术 论文 全 文 信息 及 全 文 数据 处 理 
困 昭 的 情况 下 , 它 成 为 最 具有 研究 价值 的 数据 来 源 之 
-过 在 机 器 学 习 技术 迅速 发 展 的 前 提 下 ,如 何 从 摘要 
中 挖 气 出 相应 的 知识 成 为 面向 学 术 文 本 进行 深度 知识 
挖掘 的 重要 研究 内 容 之 一 ,而 根据 摘要 已 有 的 结构 划 
分 标记 构建 摘要 结构 功能 自动 划分 模型 是 进行 上 述 深 
度 知 识 挖掘 的 基础 。 在 上 述 研究 背景 下 ,基于 不 同 的 
机 器 学 习 模 型 ,笔者 构建 了 面向 摘要 的 不 同 种 类 的 结 
构 功能 划分 模型 ,并 对 不 同 模型 的 性 能 进行 了 对 比 和 
分 析 。 不 仅 为 验证 不 同 机 器 学 习 模 型 在 摘要 结构 功能 
自动 划分 上 的 性 能 状况 提供 了 第 一 手 的 资料 ,而 且 为 
面向 摘要 进行 结构 功能 划分 确定 了 最 优 的 模型 ,从 而 
为 进行 全 文本 的 结构 功能 划分 提供 了 相应 的 模型 借 
鉴 。 

目前 ,已 经 有 一 些 学 者 从 文本 结构 的 划分 和 机 器 


学 习 ” 的 角度 对 相关 的 研究 进行 调研 。 陆 伟 等 ”采用 
条 件 随 机 场 模 型 ,基于 章节 的 标题 对 学 术 文 本 的 结构 
功能 进行 识别 实验 ,取得 了 较 好 的 实验 结果 。 这 一 研 
究 把 条 件 随 机 场 模型 有 机 地 融入 到 学 术 文本 的 篇 章 结 
构 自动 识别 当中 ,充分 利用 了 标题 中 的 特征 词 ,在 研究 
方法 上 具有 和 较 强 的 可 借鉴 性 。 黄 永 等 “5 通过 构建 支 
持 向 量 机 分 类 器 分 别 基 于 章节 内 容 和 段落 内 容 对 学 术 
论文 的 结构 功能 进行 识别 ,达到 了 较 高 的 准确 率 。 虽 
然 该 研究 使 用 了 通用 的 分 类 模型 ,但 从 领域 应 用 的 角 
度 看 这 一 研究 具有 较 强 的 创新 性 。 崔 建明 等 "通过 引 
入 “粒子 群 算法 ” ,对 SVM 算法 进行 改进 ,在 文本 分 类 
实验 中 提高 了 原始 SVM 分 类 器 的 性 能 。 这 一 研究 在 
SVM 分 类 模型 中 融入 了 算法 特征 ,为 该 模型 提供 了 确 
切 的 特征 知识 ,提高 了 整个 模型 的 性 能 。 在 融合 两 个 
机 器 学 习 模型 的 基础 上 , 程 健一 等 ”通过 构建 SVM 和 
CRF 双 层 分 类 器 ,实验 F 值 达到 91. 1% 。 这 一 研究 充 
分 利用 了 线性 和 非 线性 两 个 模型 共有 的 优势 ,具有 方 
法 上 的 创新 性 。 胡 新 搬 " 提出 一 个 基于 LSTM (长 期 
短期 记忆 ) 的 深度 学 习 模 型 来 解决 语义 结构 关系 分 类 
问题 ,并 在 标准 评测 集合 上 取得 的 成 绩 达 到 了 当时 的 
最 好 水 平 。 首 次 把 LSTM 应 用 在 语义 结构 关系 分 类 的 
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研究 上 ,对 于 如 何 更 好 地 发 挥 LSTM 在 语义 分 类 上 的 
整体 性 能 也 进行 了 细致 的 探究 。 任 智慧 等 ”在 序列 标 
注 实验 中 ,提出 基于 LSTM 网 络 模型 的 改进 方法 ,采用 
六 词 位 字符 标注 集 并 加 入 预先 训练 的 字 骸 入 向 量 ( 字 
符 般 入) 进行 中 文 分 词 ,证 明基 于 LSTM 网 络 模型 的 方 
法 比 当前 传统 机 器 学 习 方法 具有 更 好 的 性 能 。 从 整个 
研究 内 容 看 ,六 词 位 字符 集 的 确定 对 于 其 他 的 研究 如 
何 确定 面向 深度 学 习 的 字符 集 具 有 较 强 的 借鉴 性 。 针 
对 具体 的 分 词 任务 , 张 子 蹇 和 刘 云 清 ” 提出 了 一 种 基 
于 长 短期 记忆 神经 网 络 改进 的 双向 长 短期 记忆 条 件 随 
机 场 (BI-LSTM-CRF) 模型 。 这 一 研究 的 创新 之 处 在 
于 基于 深度 学 习 模型 的 性 能 优势 ,充分 挖 据 了 由 字 构 
词 过 程 中 所 使 用 的 字 的 左右 特征 ,进而 确保 了 所 构建 


模型 的 整体 性 能 。J. P. C. Chiu 入. Nichols 基于 CNN- 


CBE 模型 通过 计算 字符 级 别 的 特征 实现 领域 内 实体 识 
别 g 歌 得 了 很 好 的 效果 "" 。 这 一 研究 在 识别 实体 的 过 
种 出 所 使 用 的 字符 及 其 周围 的 特征 对 于 本 文 的 研究 具 
有 证 接 的 借鉴 意义 和 价值 。 
-基于 上 述 已 有 的 相应 研究 ,在 学 术 论文 摘要 部 分 
项 腿 结 构 划 分 越 来 越 规范 的 背景 下 ,笔者 选取 来 自 * 中 
国 知 网 ”图 书 情报 学 领域 核心 期 刊 中 具有 明确 摘要 功 
能 划分 的 3 672 篇 学 术 论文 构建 语料库 ,基于 机 器 学 
革 乔 法 和 深度 学 习 理论 搭建 了 4 种 机 器 自动 分 类 模 
型 荔 别 对 3 672 篇 学 术 论文 摘要 部 分 实现 功能 结构 
的 世 动 划分 ,通过 对 4 种 模型 分 类 识别 效果 的 比较 展 
示 呈 相关 领域 结构 功能 划分 识别 中 机 器 学 习 模 型 的 优 
劣 糙 。 笔 者 采用 两 种 结构 划分 识别 理念 进行 实验 : 
从 (序列 标注 "的 角度 进行 识别 实验 ,在 这 种 实验 思想 
下 进行 了 “长 短期 记忆 网 络 标注 实验 “添加 CRF 层 的 
长 短期 记忆 网 络 标注 实验 "和 “外 接 CRF 层 的 卷 积 神 


| 数据 清洗 
一 一 一 } ess 
序列 标注 整体 分 类 
vy 
特征 选取 与 参数 调整 | SVM 参数 选择 | 。 模型 训练 
es 
| CNN-CRF | | LSTM | [1srM-car| | sv 分 类 器 | 
jw 
| 调和 平均 什 | 宏观 F 什 


LL 模型 对 比 


1 实验 流程 


梯度 不 受 不 利 特征 变化 的 干扰 。 

LSTM 单元 由 记忆 单元 (memory cell) 和 多 个 调节 
门 (gate) 组 成 ,input gate( 输 入 门 ) .output gate (输出 
门 ) 和 forget gate( 遗忘 门 ) 协同 控制 信息 的 输入 、 输 出 
和 丢弃 ,输入 门 决 定 哪 些 信息 被 神经 元 接受 ,遗忘 门 决 
定 哪些 历史 信息 被 保留 和 删除 ,输出 门 决定 哪些 信息 
被 输出 到 下 一 记忆 单元 中 。“ 馆 ” 字 向 量 进入 神经 单 
元 中 ,输入 门 允许 部 分 向 量 信息 进入 神经 元 ,同时 遗忘 
门 删 去 该 字 与 “ 基 ”“ 于" 字 向 量 的 联系 ,输出 门将 " 馆 ” 
与 “图 “ 书 " 等 字 向 量 的 关联 度 , 及 " 馆 " 字 出 现 位 置 、 
是 否 构成 词语 等 信息 传人 下 一 神经 单元 ,确保 “ 馆 ” 字 
与 历史 字符 关联 性 信息 和 其 他 字符 级 特征 得 到 保存 。 
2.2 LSTM-CRF 模型 

条 件 随机 场 模型 "的 不 足 之 处 在 于 ,为 了 得 到 更 
好 的 识别 效果 ,需要 人 为 地 寻找 和 添加 数据 特征 ,这 对 
研究 人 员 的 数据 敏感 性 有 着 较 高 要 求 , 而且 大 量 隐藏 
特征 无 法 被 识别 ,使 得 模型 的 性 能 不 能 得 到 最 优化 的 
体现 。LSTM 神经 网 络 的 优势 在 于 挖掘 次 层 的 隐藏 语 
义 关联 性 ,并 以 向 量 的 形式 表现 出 来 。 在 实际 的 序列 


经 网 络 标注 实验 ”, 这 3 个 实验 均 选 择 独立 的 字 作为 最 
小 的 处 理 单元 ;@ 从 "整体 分 类 "的 角度 进行 识别 ,在 
该 理念 下 进行 了 “构建 支持 向 量 机 分 类 器 实验 ”, 将 每 
一 独立 功能 结构 作为 最 小 处 理 单元 。 具 体 实验 流程 见 
图 1。 


2 模型 介绍 


2.1 长 短期 记忆 网 络 

长 短期 记忆 网 络 (Long-Short Term Memory ) 是 一 种 
经 过 特殊 设计 的 RNN (Recurrent Neural Network ) 模型 ， 
能 够 学 习 长 期 的 依赖 关系 。 从 摘要 自动 分 类 的 这 
一 具体 任务 来 看 ,长 短期 记忆 网 络 不 仅 适 应 于 摘要 名 
子 过 长 的 这 一 特征 ,而 且 在 一 定 程 度 上 可 以 保持 内 部 


标注 任务 中 ,由 于 神经 网 络 结构 对 数据 的 依赖 性 很 强 ， 
数据 量 的 大 小 和 质量 都 会 严重 影响 模型 训练 的 效果 。 
LSTM-CRF 模型 可 以 很 好 地 解决 这 一 问题 ,数据 
经 过 LSTM 网 络 的 处 理 ,最 终 和 输出 的 向 量 即 可 以 看 成 
是 输入 数据 的 一 种 表示 形式 ,LSTM 控 气 深层 特 征 信息 
后 导入 条 件 随机 场 模 型 中 ,使 模型 特征 的 质量 得 到 较 
大 提升 。 新 模型 综合 利用 两 种 模型 的 优势 ,LSTM 层 解 
决 了 提取 序列 特征 的 问题 ,CRF 层 有 效 利用 了 句子 级 
别 的 标记 信息 。 从 理论 和 方法 论 上 分 析 , 这 一 组 合 模 
型 具有 特定 的 优势 。 图 2 示例 为 目的" 类别 部 分 文本 
序列 示例 : 
该 模型 输入 文本 观测 序列 ,LSTM 层 通过 单个 记忆 
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2 ”LSTM-CRF 模型 示例 


单元 中 3 种 gate 的 协作 ,有 效 利 用 上 下 文 语义 联系 提 
取 文 本 中 的 深度 特征 信息 ,以 向 量 的 形式 输入 CRF 
层 , 经 过 条 件 概率 的 计算 ,输出 文本 标签 。“ 校 “图 ” 
“ 书 " 和 * 馆 "观测 序列 以 单字 符 格式 进入 LSTM 网 络 ， 
狐 有 神经 单元 处 理 提取 字符 级 特征 及 该 字符 与 历史 字 
符 的 关联 信息 ,全 部 数据 信息 以 向 量 形式 被 条 件 随机 
场 重型 处 理 , 模 拟 手动 建立 特征 模板 和 数据 特征 输入 ， 
移出 字符 间 条 件 概率 和 矩阵 ,判断 “ 校 " 字 为 功能 块 首 
53 图 "“ 书 "和 “ 馆 ” 作 为 功能 块 中 间 字 符 , 最 终 得 到 
和 Bim I-aim 1-aim I-aim” 序 列 。 

CNN_CRF 模型 

CN 卷 积 神经 网 络 (Convolutional Neural Network ， 
CY) 是 一 种 前 馈 式 神经 网 络 " ,设计 之 初 是 对 大 型 
图 片 进行 处 理 , 其 独特 的 卷 积 结构 和 信息 反馈 机 制 能 
确保 其 在 文本 分 类 领域 也 得 到 了 广泛 应 用 。 由 于 CNN 
在 局 定 程度 上 不 仅 能 够 充分 进行 显示 特征 抽取 ,而 且 
可 驱 隐 式 地 从 训练 数据 中 进行 特征 的 自我 抽取 ,所 以 
其 攀 建 的 分 类 模型 在 性 能 上 具有 突出 的 优势 。 与 
LSEM-CRF 模型 相同 ,CNN 网 络 的 作用 在 于 通过 卷 积 
核 的 卷 积 提取 深层 字符 级 特征 ,协助 CRF 模型 对 文本 
进行 分 类 标识 。 具 体 模型 工作 情况 如 图 3 所 示 : 


一次 
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ee se A ------ 十 - > | 
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CNN 
守 窜 化 后 
字符 概率 计算 

CRF | 


人 6 Wi 
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3 ”CNN-CRF 模型 示例 


观测 序列 经 过 数据 向 量化 过 程 ,以 单个 字符 为 单 
位 生成 字 表 和 矩阵 ,CNN 卷 积 核 以 单个 字符 为 中 心 ,对 该 
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字符 周围 字符 进行 卷 积 , 提 取 该 局 部 特征 和 该 特征 与 
其 他 特征 之 间 的 位 置信 息 ,循环 式 的 卷 积 操作 提取 全 
部 局 部 信息 , 池 化 层 整合 全 部 局 部 信息 ,经 过 计算 获得 
字符 级 特征 信息 ;字符 级 信息 以 向 量 的 形式 进入 CRF 
层 , 通 过 字符 特征 概率 计算 ,得 到 最 终 的 序列 标注 。 如 
3 所 示 , 若 卷 积 核 大 小 为 2, 当 卷 积 核 以 “ 基 " 为 卷 积 
中 心 ,左右 距离 小 于 等 于 2 的 字符 将 被 纳入 卷 积 计算 
中 ,在 提取 特征 信息 之 后 , 卷 积 核 转移 到 "于 " 字 , 重 复 
以 上 操作 。 循 环 进行 的 卷 积 过 程 将 得 到 提取 全 部 局 部 
特征 , 池 化 层 整合 所 有 局 部 特征 ,得 到 全 文 特征 信息 ， 
以 向 量 形式 被 条 件 随 机 场 处 理 ,得 到 “B -aim I-aim I- 
aim I-aim 1-aim 1-aim” 序 列 。 
2.4 ”支持 向 量 机 

支持 向 量 机 (SVM - Support Vector Machine ) 是 机 
器 学 习 中 文 持 向 量 计 算 的 分 类 器 ,也 一 种 优秀 的 有 监 
督学 习 算 法 ,其 核心 内 容 是 在 1992 到 1995 年 间 提 出 
的 ,目前 仍 处 在 不 断 发 展 阶段 。 

SVM 是 从 线性 可 分 情况 下 的 最 优 分 类 面 发 展 而 
来 的 ,在 训练 数据 中 每 个 数据 都 有 mn 个 的 属性 和 一 
个 二 类 类 别 标志 ,可 以 认为 这 些 数据 在 一 个 n 维 空间 
里 。 我 们 的 目标 是 找到 一 个 n-l 维 的 超 平面 (hyper- 
plane) ,这 个 超 平面 可 以 将 数据 分 成 两 部 分 ,每 部 分 数 
据 都 属于 同一 个 类 别 。 类 别 中 距离 分 类 面 最 近 的 平面 
上 的 数据 为 广 持 问 量 , 当 类 别 之 间 文 持 向 量 所 在 平面 
距离 最 远 时 ,平行 平面 的 中 间 平 面 即 为 最 优 分 类 平面 。 


3 ”数据 处 理 


在 2017 年 11 月 3 号 到 10 号 之 间 , 笔 者 从 CNKI 
数据 库 中 获取 了 2014 - 2017 年 间 《 图 书 情报 工作 兴 情 
报 杂 志 兴 情报 探索 兴 数 据 分 析 与 知识 发 现 》( 原 《 现 
代 图 书 情 报 技术 》)《 情 报 科 学 兴 情 报 理论 与 实践 》 
《现代 情报 》 和 《农业 图 书 情 报 学 刊 》 等 期 刊 上 含有 结 
构 功 能 标记 的 摘要 ,共计 3 672 篇 。 首 先 对 语 料 进行 
一 致 性 清洗 工作 ,原始 语 料 中 对 于 摘要 功能 块 的 标注 
符号 分 为 “【】” 和 “| ] ”两 种 ,将 所 有 标注 符号 统一 为 
“【 】” ;结构 单元 的 标识 词 内 部 对 于 空格 及 其 他 分 隔 
符号 的 使 用 不 统一 ,清洗 过 程 中 将 分 隔 符 统一 为 单 空 
格 。 

笔者 从 两 种 不 同 的 角度 对 功能 结构 进行 自动 识 
别 ,根据 对 应 角度 对 数据 做 不 同 处理 。 

在 “序列 标注 ”标注 实验 下 ,以 单独 的 字 为 处 理 单 
元 ， 目 的 “方法 “结果 ”和 ”局 限 " 功 能 结构 分 别 用 
“aim” “med”“con” 和 “lit” 标 识 , 独 立功 能 结构 作为 整 
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体 添 加 入 实验 数据 ,同时 每 一 种 功能 结构 的 段落 首 字 
用 “B- 标识 ,段落 中 字 用 ”I- 标识 ,段落 尾 字 用 "上 -" 标 
识 ,一 共有 12 种 标签 ,具体 如 图 4 所 示 : 


多 B-aim 媒 Laim 体 Laim 时 laim 代 Faim 用 l-aim 户 l-aim 的 laim 信 Haim 息 
I-aim 行 I-aim 为 -aim 。 E-aim 

本 B-med 文 I-med 提 -med 出 -med 一 I-med 种 I-med 新 I-med 的 I-med 模 -med 
型 med ，E-med 

聚 B-con 类 lcon 准 I-con 确 I-con 度 I-con 要 lcon 优 l-con 于 l-con 传 -con 统 
I-con 模 上 聚 I-con 方 I-con 法 I-con 。 E-con 

利 B-t 用 Ht 本 Lit 体 Lit 实 Lit 现 LIt 语 Lit 义 Et 时 it 未 Dit 将 Dit 本 Lit 体 
Hit 进 LIt 行 HEt 集 LEt 成 LEt 。E- 弦 


4 序列 标注 示例 


在 独立 LSTM 序列 标注 实验 .LSTM-CRF 序列 标注 
实验 和 CNN-CRF 序列 标注 实验 中 , 均 在 模型 中 添加 了 
语料库 整体 字 向 量 信息 ,该 字 向 量 是 由 Word2vec 算 
法 中 构建 的 100 维 向 量 。 

本 在 “整体 识别 "实验 下 ,将 具有 独立 功能 结构 的 段 
注 和 为 整体 构建 文本 向 量 。 笔 者 通过 字 向 量 搭 建文 本 
量 量 , 常 用 的 构建 文本 向 量 的 算法 有 Word2vec 算法 和 


多 料 文本 向 量 ， 表 1 展示 了 部 分 综合 TF-IDF 权重 


表 1 部 分 基准 单字 示例 


序号 基准 单字 综合 TF-IDF 权重 
1 43.93 
2 对 42.48 
3 看 41. 16 
4 分 41.15 
5 条 39.50 
6 数 34.97 
gL 究 34.74 
8 学 33.35 
9 进 33.09 
10 为 31.74 
11 行 30.37 
12 下 30. 19 
13 在 28. 83 
14 据 28.74 
15 方 27.99 


为 科学 详细 展示 模型 分 类 性 能 ,笔者 在 构建 训练 
文本 和 测试 文本 时 进行 了 三 组 对 比 实验 ,训练 语 料 与 
测试 语 料 数据 量 比例 分 别 为 7:3 .8:2 和 9:1, 较 为 全 面 


地 展示 了 模型 在 不 同 数据 量 环境 下 的 分 类 结果 。 


4 ”实验 结果 及 评价 


对 于 序列 标注 实验 的 评价 标准 有 三 个 指标 ,分 别 
为 准确 率 (Precision) 召回 率 (Recall) 下 值 ( 上 -meas- 
ure) ,整体 识别 实验 评价 标准 增加 了 宏 平均 值 ( Macro- 
average) 作为 所 有 类 别 整体 识别 评价 指标 ,具体 计算 公 


式 如 下 : 


准确 率 P = 二 人 二 x100% 公式 (1) 

召回 率 R= 人 X100% 公式 (2) 

调和 平均 值 P= Xx100% 公式 (3) 
> 

宏 平均 值 也 = 所 一 公式 (4) 


其 中 ,A 表示 功能 块 识别 正确 的 个 数 ,判断 标准 为 
段落 的 首 字 识 别 正确 且 段 落 尾 字 识别 正确 , 则 该 功能 
块 识别 正确 。B 表示 错误 识别 功能 块 的 个 数 ,C 表示 
未 识别 出 的 功能 块 的 个 数 ,F; 为 各 类 别 独立 的 调和 平 
均值 。 为 确保 实验 数据 的 准确 性 和 理论 的 科学 性 , 笔 
者 选择 进行 10 折 交 叉 验 证 (10 -fold cross -validation ) 实 
验 辐 1 
4.1 长 短期 记忆 网 络 序列 标注 实验 

本 实验 使 用 Python 程序 语言 ,在 搭载 4CB 显存 
“NVIDIA”Quadro K1200 型 CPU 和 “英特尔 酷 寄 5 - 
45907” 四 核 处 理 器 的 Linux 操作 系统 下 ,基于 Tensorflow 
框架 "搭建 了 深度 神经 网 络 ,模型 中 可 修改 是 否 在 神 
经 网 络 中 添加 CRF 网 络 层 。 本 实验 在 未 添加 CRF 层 
条 件 下 基于 Tensorflow 框架 进行 LSTM 序列 识别 ,选择 
“adam” 作 为 模型 优化 器 ,文本 向 量 与 LSTM 隐藏 单元 
数量 均 为 100。 具 体 十 折 交 又 结果 如 表 2 所 示 : 
表 2 长 短期 记忆 网 络 模型 十 折 交 叉 实验 


We 9:1 实验 F 值 8:2 实验 F 值 ”7:3 实 验 F 什 
1 68.05% 57. 62% 48. 84% 
2 68. 32% 57. 67% 48. 87% 
3 67.67% 57.98% 49.49% 
4 68. 12% 58.43% 48.68% 
5 68.95% 58.16% 49.11% 
6 68.65% 57.78% 48.73% 
3 68. 86% 58.59% 49.09% 
8 69.15% 57.38% 48.68% 
9 68.28% 58.05% 49.49% 
10 68.00% 57.94% 49. 17% 
均值 68.40% 57.96% 49.02% 
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独立 LSTM 序列 识别 效果 的 宏观 了 上 值 在 训练 测试 
比 为 9:1 情况 下 最 高 为 69. 15% ,均值 为 68. 40% , 当 
减少 训练 语 料 数据 量 至 70% 时 宏观 下 值 只 有 49.02% 。 
总 体 识 别 情况 较 差 ,主要 影响 因素 为 摘要 功能 块 文本 
过 长 ,不同 于 一 般 的 实体 名 称 识别 ,而 且 单 字 的 标签 极 
大 地 依赖 于 相 邻 字 的 标签 和 整体 序列 信息 ,长 短期 记 
忆 网 络 在 挖掘 次 层 特 征 之 后 无 法 有 效 实现 序列 识别 和 
标注 ,实验 结果 表明 LSTM 模型 在 类 似 结 构 功 能 划分 
识别 实验 中 还 有 较 大 改进 空间 。 
4.2 LSTM-CRF 模型 序列 识别 实验 

与 独立 LSTM 实验 相同 ,修改 基于 Tensorflow 框架 
的 神经 网 络 参 数 ,添加 CRF 为 神经 网 络 最 后 一 层 ,将 
LSTM 层 挖 掘 的 深层 特征 向 量 作 为 CRF 层 的 输入 量 
基体 实验 结果 如 表 3 所 示 : 

表 3 LSTM-CRF 模型 十 折 交 叉 实 验 
网 


O 


9:1 实验 F 值 ”8:2 实验 F 值 7:3 实验 F 值 
88.13% 87.42% 86.54% 
88.42% 87.60% 86.87% 
87.57% 87.58% 86.31% 
88.58% 88.15% 86.48% 
88.78% 88. 16% 87.11% 
88.56% 87.78% 86.73% 
88. 86% 88.09% 86.22% 
89.05% 87.38% 86.38% 
88.17% 88.05% 86.49% 
88.29% 87.32% 87.17% 
88.44% 87.75% 86.63% 


二 从 表 3 中 可 以 看 出 ,添加 了 CRF 层 的 神经 网 络 识 
别 爱 果 有 了 很 大 的 提升 ,训练 测试 比 为 9:1 条 件 下 最 
佳 下 值 达到 了 88.44% ,基本 达到 预计 的 效果 。 但 是 距 
离 用 于 实际 开放 性 测试 还 有 一 定 差距 ,最 重要 的 制约 
因素 是 语 料 的 规模 ,神经 网 络 对 于 特征 的 挖掘 和 词 间 
关系 计算 得 出 的 概率 矩阵 较 简单 ,使 输入 至 CRF 层 的 
向 量 中 包含 的 语义 信息 过 少 ,识别 效果 降低 , 当 语 料 规 
模 扩大 ,神经 网 络 模型 对 于 数据 处 理 效果 理论 上 会 有 
较 大 提升 。 
4.3 ”CNN-CRF 模型 序列 识别 实验 

本 实验 基于 Tensorflow 框架 搭建 了 含 卷 积 网 络 层 
和 CRF 层 的 神经 网 络 模型 ,CNN 层 为 特征 筛选 层 , 进 
过 处 理 的 字符 串 数据 由 CRF 计算 条 件 随机 概率 ,对 文 
本 进行 标注 ,具体 实验 过 程 见 表 4。 

在 本 实验 中 ,CNN 网 络 层 的 作用 与 LSTM -CRF 模 
型 中 LSTM 网 络 的 作用 类 似 ， 提 取 深层 语义 特征 信息 
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表 4 CNN-CRF 模型 十 折 交 又 实验 


ee se 9:1 实验 F 值 8:2 实验 了 值 7:3 实验 Ff 值 
由 88.76% 86. 83% 85.35% 
各 88. 90% 86. 18% 85.87% 
入 88.77% 86.67% 85.43% 
4 88.68% 87.28% 86.13% 
二 88.79% 86. 22% 85.82% 
6 88.78% 86. 80% 85.55% 
2 88.66% 86.70% 85.92% 
8 89. 10% 87.11% 85.37% 
9 88.97% 87.22% 86.09% 
10 88. 89% 86.57% 86.17% 

均值 88. 83% 86.76% 85.77% 


输入 到 CRF 层 ,弥补 条 件 随机 场 模型 严重 依赖 特征 的 
不 足 。 在 实验 所 用 的 摘要 语 料 中 , 卷 积 神经 网 络 特征 
获取 性 能 与 长 短期 记忆 网 络 的 几乎 处 于 同一 水 平 , 实 
验 最 佳 了 上 值 89.10% ,证 明了 CNN 网 络 在 处 理 文本 功 
能 分 类 实验 中 具有 很 好 的 性 能 。 
4.4 ”支持 向 量 机 分 类 器 实验 

SVM 中 最 重要 的 两 个 参数 为 C 和 gamma。C 是 惩 
世系 数 , 即 对 误差 的 宽容 度 。C 越 高 ,说 明 越 不 能 容忍 
出 现 误 差 。C 过 大 或 过 小 , 泛 化 能 力 变 差 , 惩 罚 系数 理 
论 上 越 大 越 有 效 , 但 是 C 过 大 可 能 引起 数据 过 度 拟 合 。 
gamma 是 选择 核 函数 作为 kernel 后 ,该 函数 自 带 的 一 
个 参数 , 隐 含 地 决定 了 数据 映射 到 新 的 特征 空间 后 的 
分 布 ,gamma 越 大 支持 向 量 越 少 ,gamma 值 越 小 支持 向 
量 越 多 。 支 持 向 量 的 个 数 影 响 训练 与 预测 的 速度 。 
核 函数 能 提高 模型 的 Feature 维度 ( 低 维 到 高 维 ) ,使 
SVM 具有 和 较 好 的 非 线 性 拟 合 能 力 , 核 函数 常用 的 有 
linear poly 和 rbf, 为 了 选择 最 优 参 数 对 模型 进行 测试 ， 
在 训练 语 料 与 测试 语 料 数据 量 比例 为 9:1 背景 下 进行 
了 多 次 组 合 实验 得 到 最 优 参数 。 具 体 实验 结果 如 表 5 
所 示 : 


表 5 支持 向 量 机 参数 选择 


芒 函 数 。 ”测试 语 料 。 ”识别 正 

代价 本 数 (C) 平均 人 
玉生 linear 1 130 792 70.0% 
0.8 linear L130 810 71.7% 
1.0 rbf 1 130 414 36.6% 
0.8 rbf 1 130 375 33.2% 
1.0 poly 1 130 767 67.9% 
0.8 poly 1 130 767 67.9% 


根据 实验 结果 ,选择 核 函数 kermel = linear, 代 价 
函数 C = 0.8。 在 模型 性 能 最 优 参数 下 进行 交 
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实验 ,支持 向 量 机 的 评价 标准 为 准确 率 , 即 正 确 识 别 功 
能 块 的 个 数 与 测试 语 料 中 全 部 功能 块 的 数量 的 比值 。 


具体 实验 结果 如 表 6 所 示 : 
表 6 支持 向 量 机 分 类 结果 


准 
崔 
Le 
宣 


实验 序号 9:1 宏 平均 值 8:2 宏 平均 值 7:3 宏 平 均值 
1 71.05% 70. 82% 69.40% 
2 71.29% 70.72% 70.23% 
3 70.98% 69. 89% 69.77% 
4 72.04% 70. 89% 68. 86% 
5 71.93% 71.23% 70.33% 
6 71.56% 69.78% 69. 66% 
7 70. 86% 70. 56% 69. 85% 
8 71.23% 70.78% 69. 56% 
9 71.46% 71.19% 70.44% 
10 72.00% 71.11% 68.74% 
均值 71.44% 70.70% 68.68% 


支持 向 量 机 的 总 体 识别 结果 不 佳 ,最 高 识别 准确 
.04% , 低 于 实验 预期 80% 准确 率 。 笔 者 从 功能 


过 程 为 调用 中 国 科学 院 “NLPIR 汉语 分 词 系统 ”， 
会 部 语 料 进行 分 词 处 理 , 去 除 停 用 词 后 分 别 选取 “ 目 
方法 “结果 "和 “局 限 "4 种 类 别 中 词 频 最 高 的 50 
,统计 分 布 位 置 非 单 一 的 词语 ,一 共有 78 个 多 类 
别 贸 布 的 词语 ,如 “效果 "“ 过 滤 "“ 启 示 ”“ 指 标 "“ 设 
计 ”和 “人 群 ”等 词 ,同时 高 频 出 现在 多 个 类 别 
(svM 作为 典型 的 小 样本 学 习 方法 ,对 学 习 结果 起 
决定 作用 的 是 少数 落 在 分 类 超 平面 两 侧 的 支持 向 量 ， 
因 呈 本 质 还 是 对 于 分 类 类 别 特征 的 提取 。 在 语 料 相似 
度 较 高 时 ,各 类 别 浅 层 特征 不 明显 ,导致 支持 向 量 的 数 
量 过 少 ,影响 了 支持 向 量 机 分 类 器 的 性 能 。 上 文中 提 


笔者 从 自然 语言 处 理 模型 选取 角度 出 发 ,对 比 “ 长 
短期 记忆 模型 “LSTM-CRF 模型 “CNN-CRF 模型 "和 
“支持 向 量 机 "4 种 经 典 机 器 学 习 模型 ,实验 结果 表明 
语料库 数据 较 少 时 ,基于 序列 标注 思想 的 “神经 网 络 + 
条 件 随 机 场 "在 处 理 文本 结构 功能 划分 识别 问题 时 仍 
具有 一 定 优势 ,独立 LSTM 神经 网 络 模型 无 法 有 效 处 
理 序列 标记 识别 问题 , 而 添加 CRF 隐藏 层 的 LSTM 神 
经 网 络 模型 相 较 于 独立 LSTM 模型 性 能 会 有 较 大 提 
升 ,关于 语料库 的 数据 量 ,深层 神经 网 络 的 优势 未 得 到 
体现 ,SVM 模型 在 类 别 识别 度 较 低 的 分 类 问题 中 , 代 
蔡 向 高 维 空间 的 非 线性 映射 的 核 函 数 表 现 不 佳 ,最 佳 
分 类 超 平面 的 选取 较为 困难 ,整体 模型 性 能 也 受到 影 
啊 。 在 针对 摘要 这 一 结构 功能 划分 的 任务 上 ,机 天 学 
习 模 型 特别 是 深度 学 习 下 的 神经 网 络 模型 不 仅 能 够 有 
效 地 利用 摘要 句子 之 间 和 字 与 字 之 间 的 特征 ,而 且 在 
多 分 类 的 任务 上 确实 表现 出 来 非常 强 的 性 能 优势 ,但 
如 何 解 决 机 器 学 习 过 程 中 的 领域 过 拟 合 性 和 迁移 性 是 
本 研究 在 后 续 探究 中 应 该 关注 的 一 个 问题 。 

在 下 一 步 的 研究 中 ,笔者 将 在 语 料 选 择 和 模型 处 
理 方面 做 出 更 多 改进 ,选取 的 语 料 为 中 文摘 要 数据 , 虽 
具有 一 定 的 代表 性 ,但 与 英文 数据 中 语义 信息 和 语法 
构成 存在 较 大 差距 ,笔者 将 在 英文 摘要 语 料 和 论文 正 
文部 分 进行 结构 功能 划分 机 融 学 习 模 型 比较 实验 ,得 
到 更 具有 普遍 性 的 模型 性 能 对 比 数据 。 在 模型 处 理 方 
面 主要 体现 为 增加 语料库 数据 ,并 重新 训练 LSTM - 
CRF 神经 网 络 模型 测试 模型 性 能 ;调整 卷 积 神经 网 络 
中 卷 积 核 大 小 ,反馈 式 测试 CNN-CRF 模型 的 性 能 ;使 
用 Word2vec 模型 训练 文本 向 量 ,结合 长 短期 记忆 模型 


山 | 


及 的 “效果 “过 滤 ” 和 “模板 ”等 词语 出 现 次 数 均 在 5 
万 次 至 8 万 次 之 间 , 人 研究 人 员 对 于 摘要 部 分 各 类 别 之 
间 互 相 补充 说 明 的 方式 使 得 类 别 区 分 度 降 低 ,支持 向 
量 数量 减少 ,SVM 分 类 决策 失误 增多 ,准确 率 降低 。 例 
如 , 气 目 的] 信息 网 络 中 的 作品 .个 人 信息 等 利用 一 般 
需要 获得 许可 ,而 明示 许可 基本 无 法 实现 。 默 示 许 可 
可 以 弥补 网 络 信息 利用 中 明示 许可 存在 的 不 足 , 在 一 
定 程 度 上 解决 网 络 信息 利用 中 的 授权 问题 。【 方 法 】 
文章 对 网 络 信 息 利 用 中 的 默 示 许可 问题 进行 系统 讨 
论 。【 结 果 】 从 法 理 和 实践 两 方面 阐述 默 示 许 可 在 网 
络 信息 利用 中 适用 的 可 行 性 ,提出 默 示 许 可 的 适用 范 
围 适用 条 件 和 适用 限制 。”“ 目 的 ”和 “结果 ”部 分 识别 
度 较 低 , 特 征 提取 较 困难 。 


提取 类 别 特征 ,提高 支持 向 量 机 的 分 类 准确 率 ; 在 神经 
络 中 考虑 加 入 SVM 层 作 为 特征 提取 层 , 弥 补 序列 标 
注 实验 中 对 于 类 别 边界 特征 利用 不 足 的 情况 ,进一步 
增加 模型 的 数量 并 完善 模型 的 识别 性 能 。 
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Abstract: [Purpose/significance | Abstract can explain concisely the research purposes, research methods and the 
final part of the statement, which is of high exploration value and significance. [ Method/process | In this paper, four 
short -term memory networks (long short -term memory, support vector machine, LSTM -CRF and CNN-CRF) were selected 
to summarize the journal articles of 3672 CNKI databases. [ Result/conclusion | The long -term memory network model i- 
dentifies the highest F value of 69.15% , the maximum 上 value of LSTM-CRF neural network model is 88.76% , and the 
highest F value of RNN-CRF model is 89. 10% . The highest support vector machine classifier classification macro 上 value 
is 72.04%. The experimental results have a high reference value for the selection of the experimental model of the func- 
tional structure of academic dissertation in the field of library and information science. 
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